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摘 要 : 明 安 图 射电 频谱 日 像 仪 每 天 产生 海量 观测 数据 ， 传 统 的 关系 型 数据 库存 储 和 
管理 这 些 数据 时 ， 面 临 着 读 写 延迟 高 、 性 能 和 容量 扩展 能 力 有 限 以 及 可 用 性 弱 等 诸多 问题 
针对 这 些 问 题 ， 开 展 了 基于 NoSQL 的 海量 数据 存储 与 检索 应 用 研究 。 首 先 ， 详 细 分 析 了 明 
安 图 射电 频谱 日 像 仪 数据 特点 、 存 储 需要 以 及 面临 的 问题 ; 然后 ， 对 明 安 图 射电 频谱 日 像 
仪 进 行 数据 建 模 ， 给 出 了 明 安 图 射电 频谱 日 像 仪 的 列 式 非 关 系 型 数据 模型 ， 同 时 提出 了 元 
数据 和 数据 在 NoSQL 中 的 同步 存储 方法 ， 解 决 了 二 者 的 一 致 性 问题 ， 在 此 基础 上 实现 了 基 
于 Cassandra 的 海量 天 文 数据 存储 管理 系统 (MBDMS)， 最 后 通过 实验 验证 了 系统 存储 与 检 
索 的 高 效 性 、 扩 展 性 以 及 可 行 性 ， 从 结果 来 看 ，MBDMS 可 以 很 好 的 满足 数据 管理 需要 ， 
是 解决 当前 数据 存储 问题 的 一 种 有 效 方 案 。 
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明 安 射电 频谱 日 像 仪 (Mingantu Ultrawide SpEctral 
Radioheliograph, MUSER) 是 同时 以 高 时 间 、 高 空间 和 高 频率 分 辨 率 对 太阳 进行 
射电 频谱 成 像 的 设备 ， 主 要 对 日 晃 层 进行 层 析 观 测 ， 探 测 日 晃 大 气 ， 研 究 太 阳 
活动 的 动力 学 性 质 。 项 目 分 为 两 期 : 第 1 期 低频 阵 〈MUSER-1) 由 40 面 4.5m 口 
径 的 抛物 面 天 线 及 接收 设备 组 成 ， 在 64 个 频率 点 上 成 像 ; 第 2 期 高 频 阵 

(MUSER- 1| ) 由 60 面 2m 口 径 的 抛物 面 天 线 及 接收 设备 组 成 ， 可 以 在 528 个 频 
率 点 上 成 像 "。 

明 安 图 射电 频谱 日 像 仪 的 观测 数据 需 实时 存储 并 处 理 以 研究 太阳 动向 和 监控 天 线 观 测 
状态 。 对 目前 基于 关系 型 数据 库 的 数据 处 理 具有 较 大 的 技术 挑战 。 明 安 图 射电 频谱 日 像 仪 
数据 的 存储 需求 具体 如 下 叫 ; 

(1) 数据 存储 。 需 要 能 够 文 持 每 月 低频 阵 和 高 频 阵 约 32TB 和 70TB 数据 的 存储 工作 。 

(2) 数据 的 一 致 性 存储 。 需 要 把 帧 头 数据 和 帧 数据 处 理 后 的 图 像 进行 统一 存储 。 

(3) 数据 的 管理 和 检索 。 需 要 实现 明 安 图 射电 频谱 日 像 仪 数据 管理 系统 ， 更 直观 的 把 
数据 库 中 存储 的 数据 呈现 出 来 ， 在 完成 图 像 相似 匹配 的 前 提 下 实现 信息 的 高 效 检索 。 

在 现 有 存储 方案 中 ， 数 据 的 一 致 性 不 能 得 到 有 效 保障 ， 在 数据 量 大 的 情况 
下 ， 很 容易 发 生 帧 头 信 息 和 帧 数据 不 匹配 的 问题 。 非 关系 型 数据 库 的 出 现 ， 为 
高 速 同 步 存储 海量 帧 头 数 据 和 帧 数据 提供 了 可 能 ， 从 而 为 一 致 性 问题 的 解决 提 
供 了 新 思路 。 


1 国内 外 研究 现状 


海量 数据 的 存储 管理 是 天 文 领域 的 一 个 重要 问题 ， 随 着 天 文大 数据 的 产生 ， 
各 个 天 文 研 究 机 构 也 开始 研究 大 数据 存储 管理 方案 。 美 国 华盛顿 大 学 天 文系 的 
计算 机 科学 家 采用 HDFS 分 布 处 理 海量 天 文 图 像 数 据 ， 使 用 MapReduce 将 天 文 图 
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像 数据 按 组 分 解 成 小 型 文件 序列 后 再 输入 系统 ， 在 减少 文件 总 量 的 情况 下 明显 
提高 处 理 效率 。 文 [3] 提 出 了 一 种 针对 海量 数据 的 新 型 数据 管理 技术 -负数 据 库 ， 
利用 观测 数据 的 补充 集 来 获取 必要 的 信息 ， 从 而 实现 对 明 安 图 射电 频谱 日 像 仪 
数据 的 高 效 管 理 。 文 [4] 提出 了 使 用 NoSQL 对 FITS 文件 头 元 数据 进行 存储 研究 ， 
并 且 对 其 可 行 性 进行 了 实验 论证 。 为 了 满足 海量 天 文 数据 的 高 性 能 检索 和 查询 
需求 ， 文 [5] 提 出 了 一 种 基于 ElasticSearch 分 布 式 搜索 引擎 ， 实 现 了 海量 FITS 
数据 高 效 检索 的 方法 。 文 [6] 提出 了 一 个 基于 Cassandra 的 分 布 式 反 向 索引 ， 用 
以 解决 传统 关系 型 数据 存储 无 法 解决 的 可 扩展 性 问题 ， 并 在 此 基础 上 设计 了 数 
据 模 型 和 查询 处 理 过 程 。 理 论 上 这 个 方法 同样 可 以 用 在 天 文 数据 处 理 中 。 这 些 
工作 虽 在 一 定 程度 上 提升 了 工作 效率 ， 但 是 仍 在 数据 高 效 存储 方面 有 所 不 足 。 

文 [7] 实 现 了 一 个 基于 NoSQL 的 高 性 能 存储 系统 ， 对 数据 的 存储 位 置 和 数据 
查询 结构 进行 深入 研究 ， 保 证 了 数据 存储 的 灵活 性 、 可 移植 性 和 稳定 性 。 文 [8] 
针对 传统 关系 型 数据 库 无 法 满足 海量 数据 的 存储 与 访问 需求 的 问题 ， 提 出 了 基 
于 NoSQL 的 分 布 式 存储 与 扩展 解决 办 法 ， 提 出 将 NoSQL 作为 镜像 引入 数据 库 架 
构 系 统 ， 在 一 定 程度 上 避免 了 资源 浪费 以 及 服务 器 过 载 。 经 相关 实验 论证 ， 上 
述 两 种 研究 均 可 应 用 于 天 文 数据 处 理 方面 。 

文 [9] 基 于 NoSQL 技术 设计 了 明 安 图 射电 频谱 日 像 仪 数据 归档 与 发 布 系统 ， 
使 用 FastBit 数据 库 对 数据 进行 存储 研究 ， 利 用 位 图 索引 的 优势 ， 大 大 提高 了 
索引 查询 的 效率 。 对 海量 数据 存储 和 检索 的 有 效 手 段 的 研究 和 探讨 与 本 文 的 研 
究 存在 较 大 的 不 同 ， 前 者 偏重 于 数据 检索 效率 , 本 文 偏重 于 数据 存储 的 可 靠 性 、 
可 用 性 以 及 一 致 性 。 


2 数据 一 致 性 问题 


2.1 一 致 性 问题 产生 的 原因 

元 数据 通常 用 来 描述 数据 ， 例 如 明 安 图 射电 频谱 日 像 仪 采集 图 像 的 时 间 、 
极 化 方式 等 。 因 此 元 数据 成 了 支持 数据 检索 的 关键 ， 而 数据 检索 功能 是 数据 管 
理 的 重要 部 分 。 通 常 这 类 数据 的 存储 方式 是 元 数据 和 数据 文件 分 离 存 储 ， 这 种 
方式 带 来 了 数据 的 一 致 性 问题 ， 元 数据 或 数据 一 旦 其 中 之 一 出 现 丢 失 ， 数 据 之 
间 就 存在 不 匹配 的 情况 ， 特 别 是 在 如 此 巨大 的 数据 背景 下 ， 这 种 丢失 更 容易 发 
生 ， 因 此 在 这 种 情况 下 ， 元 数据 和 数据 之 间 的 一 致 性 关系 需要 得 到 保证 。 为 了 
方便 后 续 分 析 阐 述 ， 对 MUSER 数据 的 一 致 性 问题 进行 如 下 描述 。 

定义 : 为 数据 ， 为 的 元 数据 ， 由 多 个 字段 属性 构成 。 用 集合 关系 可 表示 为 

(1) 

二 者 之 间 的 一 致 性 关系 定义 为 , 不 一 致 关系 为 ， 而 不 一 致 性 关系 又 细 分 为 (1), 存 
在 数据 ， 但 是 无 法 找到 对 应 的 元 数据 ; (2), 存在 元 数据 但 是 无 法 找到 对 应 的 数 
据 ; (3) ， 二 者 均 不 存在 。 对 于 这 些 处 理 方 法 参见 文 [10] 。 


2.2 传统 存储 过 程 中 的 解决 方案 

对 于 一 致 性 解决 方案 有 如 下 两 种 : 

(1) 简单 的 一 致 性 处 理 方案 。 使 用 异步 非 阻塞 的 方式 存储 元 数据 和 数据 文件 ， 
二 者 不 存在 一 致 性 的 协商 手段 ， 主 机 的 可 靠 性 是 保证 数据 一 致 性 的 前 提 ， 如 图 
1。 

(2) 两 段 提 交 协 议 。 文 [10] 使 用 成 熟 的 两 段 提交 协议 做 数据 服务 之 间 的 同步 ， 


文中 把 FITS 文件 各 个 参与 部 分 按照 两 段 提交 的 角色 进行 划分 ， 如 图 2。 数 据 采 
集 服务 器 充当 协调 者 的 角色 ， 元 数据 和 数据 充当 成 员 的 角色 ， 三 者 直接 通过 两 
段 提 交 协 议 进行 一 致 性 确认 。 


图 1 一 致 性 问题 处 理 图 2 两 段 提交 协议 
Fig.1 Consistency problem processing Fig.2 2PC 


2. 3 基于 NoSQL 的 一 致 性 解决 方法 

数据 和 元 数据 同步 存储 ， 在 数据 量 小 ， 性 能 要 求 不 高 的 场合 ， 可 以 很 容易 
处 理 。 针 对 明 安 图 射电 频谱 日 像 仪 的 UVFITS 文件 ， 许 多 关系 型 数据 库 都 提供 了 
大 数据 的 存储 方式 ， 利 用 MySQL 的 Longlob，PostgreSQL 的 Bytea，SQLServer 
的 Blob，0Oracle 的 Blob 和 Clob 等 ， 但 这 种 方式 存储 的 最 大 问题 在 于 关系 型 数 
据 库 的 原子 性 (Atomicity ) 、 一 致 性 (Consistency) 、 隔 离 性 

(lsolation) 、 持 久 性 (Durability) 的 特性 限制 ， 导 致 了 在 面 对 海量 天 文 数 
据 的 时 候 出 现 的 写 入 延迟 高 、 水 平 扩展 能 力 差 以 及 数据 结构 固定 等 诸多 问题 。 

针对 这 些 问题 ， 本 文 研究 基于 NoSQL 的 分 布 式 海量 数据 存储 方案 ， 通 过 调 
研 和 研究 ， 选 取 Cassandra"" 作为 底层 数据 存储 平台 ， 相 对 于 传统 的 关系 型 数 
据 库 ，Cassandra 具有 存储 速度 快 、 扩 展 性 高 、 数 据 结 构 随 机 等 特点 ， 此 外 与 
其 他 NoSQL 数据 库 相 比 ， 还 具备 以 下 优点 : 

(1) 无 中 心 架构 ， 单 点 故障 不 会 造成 系统 运行 中 断 。 

(2) 动态 水 平 扩 展 ， 新 节点 的 加 入 不 会 影响 当前 工作 的 进程 。 

(3) 存储 模式 具有 更 高 的 灵活 性 ， 可 以 在 系统 运行 时 随意 为 记录 添加 或 删除 
字段 。 

(4) 高 并 发 读 写 能 力 ， 超 级 列 和 列 族 概念 的 引入 ， 使 得 键 值 匹 配 次 数 减少 ， 
减少 了 文件 数据 的 寻 址 时 间 ， 可 以 实现 高 速 读 写 数据 。 

新 数据 模型 采用 数据 文件 和 元 数据 在 一 起 的 方式 进行 数据 存储 ， 这 种 方式 
不 仅 避 免 了 一 致 性 问题 ， 同 时 在 性 能 上 也 较 传 统 的 方式 有 很 大 的 提高 ， 表 1 为 
Cassandra 数据 库 和 MySQL 数据 库 插入 数据 情况 对 比 。 相 比 于 MySQL 采用 的 共享 
内 存 的 存储 机 制 ，Cassandra 具有 的 高 并 发 读 写 能 力 以 及 无 中 心 架构 更 加 有 利 
于 保证 数据 存储 的 高 效 性 以 及 一 致 性 。 

表 1 性 能 对 比 


Table 1 performance compar ison 


Number (thousand) Size (GB) Time (min) Rate (GB ) 
5 1 3.5 0. 28 
MySQL 
10 2 7.1 0. 28 
20 4 13.9 0. 29 
5 1 | 0.47 
Cassandra 
10 2 3.8 0. 53 
20 4 0.9 0. 58 


3， 基 于 NoSQL 的 海量 天 文 数据 存储 系统 MBDMS 


3.1 明 安 图 射电 频谱 日 像 仪 数据 建 模 
明 安 图 射电 频谱 日 像 仪 可 设置 在 循环 和 非 循环 两 种 模式 下 进行 观测 。 循 环 
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模式 即 天 线 的 观测 在 各 个 射频 频段 之 间 循 环 进行 ， 非 循环 模式 即 天 线 的 观测 频 
率 固定 在 同一 频率 范围 。 明 安 图 射电 频谱 日 像 仪 有 两 种 极 化 方式 ， 左 旋 和 右 旋 ; 
有 四 个 波段 ， 分 别 为 0. 4~0. 8GHz、0.8 1.2GHz、1. 2 1. 6GHz、1.6 2. 0GHz。 每 
个 波段 ， 有 16 个 通道 ， 每 个 通道 的 带宽 为 25MHz。 在 实际 观测 中 ， 每 3ms 生成 
一 帧 数据 ， 每 帧 数据 由 帧 头 和 数据 组 成 ， 总 数据 量 为 0. 1MByte。 每 一 分 钟 可 以 
产生 19 200 帧 数据 。 研 究 针 对 于 明 安 图 射电 频谱 日 像 仪 数 据 的 观测 时 间 、 文 件 
名 、 极 化 方式 、 种 类 、 频 率 等 信息 进行 存储 。 其 中 观测 时 间 (time) 为 主键 ， 设 
置 为 非 空 。fi lename 为 文件 名 及 存储 路 径 ， 设 置 为 非 空 。 极 化 (polar ization) 
和 频率 (frequency) 等 均 为 帧 头 的 参数 ，result 为 帧 数据 转换 成 的 图 片 文 件 ， 
如 图 3、 图 4。 


Cassandra 可 以 看 成 4 维 的 哈 希 结 构 构 成 的 Key/Value 数据 模式 。 其 包括 键 
值 空 间 (Keyspace) 、 列 族 (Column Family) 、 键 值 (Key) 和 列 (Column) ， 以 三 级 
藤 套 的 形式 存在 。 如 图 3 和 图 4， 为 Cassandra 数据 库 的 两 种 数据 存储 模型 设计 。 
图 3 的 设计 模式 为 每 一 个 CF 对 应 一 个 Column， 图 4 设计 模式 为 每 一 个 CF 对 应 
多 个 Column。 在 读 写 操作 中 ， 第 2 种 设计 模式 可 以 减少 CF 对 key 值 的 匹配 ， 减 
少 文件 寻 址 时 间 ， 从 而 减少 系统 开销 。 本 文 的 数据 模型 采用 第 2 种 设计 模式 。 
Cassandra 数据 库存 储 数据 的 流程 为 提交 动作 记录 到 日 志 ， 然 后 把 数据 写 入 内 
存 Memtable 中 ， 等 达到 系统 设 定 条 件 ， 再 将 Memtable 中 的 数据 批量 写 入 磁盘 ， 
存储 为 SStable 结构 。 


图 3 数据 存储 模式 1 图 4 数据 存储 模式 2 
Fig.3 The first data storage mode Fig.4 The second data storage mode 


3. 2 MBDMS 实现 

5 为 系统 层次 结构 图 。Client 端 接受 用 户 的 请 求 ， 并 对 用 户 做 一 些 合法 
性 检查 ， 把 用 户 的 请 求 发 给 服务 器 端 。 服 务 器 端 接收 到 用 户 的 请 求 后 ， 对 用 户 
的 请 求 做 出 解析 ， 人 处理 用 户 的 请 求 ， 并 把 操作 数据 的 命令 返回 Data 端 ，Data 端 
进行 相应 的 操作 。 服 务 器 端 通过 Data 的 返回 信息 判断 用 户 的 操作 是 否 成 功 ， 返 
回信 息 给 Client 端 。 其 中 客户 端 目前 需要 3 个 关键 的 功能 模块 。 第 1 个 模块 为 
数据 处 理 模块 ， 在 这 个 模块 中 ， 用 户 可 以 查询 和 删除 数据 库 中 的 数据 信息 ， 并 
且 可 以 实现 分 页 显示 效果 ; 图 像 转化 模块 中 用 户 可 以 根据 实际 需要 ， 把 选 定 的 
数据 中 的 图 像 数 据 转换 成 图 像 ， 以 便于 用 户 查 阅 ; 图 像 检索 模块 中 用 户 可 以 根 
据 自 己 的 需求 ， 对 提交 的 图 像 进 行 特征 值 对 比 检索 ， 用 以 筛选 出 数据 库 中 相似 
度 最 高 的 图 像 。 论 文 基于 两 种 数据 库 接 口 ， 利 用 Python 和 Django 框架 实现 了 
海量 天 文 数据 存储 系统 。 明 安 图 射电 频谱 日 像 仪 数据 展示 如 图 6。 

面 对 明 安 图 射电 频谱 日 像 仪 数据 海量 、 非 结构 化 、 一 致 性 弱 等 特性 ， 客 户 
端的 用 户主 要 分 成 两 类 ，(1) 对 MUSER 元 数据 进行 整理 、 加 工 的 管理 者 ， 该 类 用 
户 对 数据 侧重 方向 为 元 数据 的 统一 性 、 规 整 性 ， 以 便于 更 高 效 地 实现 MUSER 元 
数据 的 存储 。 (2) 对 明 安 图 射电 频谱 日 像 仪 数据 进行 处 理 的 使 用 者 ， 该 类 用 户 需 
要 通过 数据 库 中 存储 的 元 数据 检索 出 帧 数据 ， 对 元 数据 和 帧 数据 的 一 致 性 有 更 
强 的 要 求 。 


图 5 系统 存储 与 检索 流程 图 
Fig.5 The System storage and data retrieval diagram 


图 6 基于 Web 的 MUSER 数据 检索 展示 
Fig.6 The exhibition of MUSER data retrieval by using Web GUI 


4 性 能 测试 


为 验证 MBDMS 性 能 ， 通 过 其 提供 的 关系 型 和 非 关 系 型 数据 接口 连接 MySQL 和 
Cassandra 数据 库 ， 在 此 基础 上 进行 了 3 组 测试 ， 实 验 环 境 如 下 : 4 台 E7200 酷 
寡 双 核 ，2. 53GHz CPU，26 内 存 ，7200 转 SATA 硬盘 。 操 作 系 统 为 Centos 64 

(内 核 版 本 为 2-504.el6.x86 64) 。 数 据 库 版 本 为 MySQL-cluster-gp1- 
7. 2. 28-|1inux2. 6-x86_64 和 Apache-Cassandra-3. 9-bin， 均 采用 默认 配置 。 


4.1 查询 语句 
实验 采用 如 表 2 常用 的 检索 语句 。 
表 2 MySQL 和 Cassandra 的 查询 语句 


Tab.2 The sentence of queried by MySQL and Cassandra 
SQL&CQL 


MySQL "select time, filename, kind, frequency, polarization, result, offset from muserdata where 
time=23062909938482" 
"insert into muserdata SET result='%s'" % \ mdb. escape_string(img)" 
"select time, filename, kind, frequency, polarization, result, offset from muserdata where 
Cassandra time = 23062909938482" 
"cf = pycassa. ColumnFami ly (pool, "muserblob') " 
"cf. insert (h, {'result': data})" 


令 索 实验 中 使 用 time (主键 ) 为 条 件 进行 数据 查询 。 采 用 元 数据 和 帧 数据 统 
一 存储 的 方式 进行 MUSER 数据 存储 ， 保 证 了 数据 的 一 致 性 ， 并 使 用 新 存储 策略 
采用 的 Cassandra 与 旧 存 储 策略 采用 的 MySQL 数据 库 进行 性 能 测试 ， 具 有 一 定 
的 代表 性 。 所 需 查询 的 数据 为 数据 库 中 存 有 的 所 有 数据 ， 分 别 为 文件 存储 路 径 、 
数据 种 类 、 数 据 频率 、 极 化 和 帧 数据 。 为 了 保证 实验 的 精确 性 ， 两 种 数据 库 均 
使 用 相同 的 查询 语句 。 


4.2 检索 性 能 扩展 性 测试 
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17.5 ] -@- Cassan dra-MBDMS 
一重- Mysql-MBDMS 
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Number 可 records(million) 
(a) (b) 
图 7 不 同 数据 量 及 节点 数 检索 性 能 对 比 ，(a) 不 同 数据 量 检索 ，(b) 不 同 节点 数 检索 


Fig.7 The comparison of data volume and number of node, (a)different data volume, (b)different number of node 

图 7(a) 为 查询 维度 为 7， 集 群 节点 数 为 3， 当 数据 库 中 数据 量 不 同时 ， 两 种 
数据 库 对 数据 进行 查询 的 实验 结果 。 扩 展 性 是 明 安 图 射电 频谱 日 像 仪 大 数据 存 
储 的 一 个 基本 需要 ， 随 着 数据 量 的 增 大 ， 性 能 和 存储 容量 也 应 该 具有 相应 的 扩 
展 能 力 ， 通 常数 据 都 以 在 线 的 方式 提供 服务 ， 也 要 求 存储 系统 具有 动态 节点 增 
加 和 减少 的 特性 ， 从 结果 可 以 看 出 ， 基 于 Cassandra 数据 库 的 操作 所 需 的 时 间 
要 少 于 MySQL 数据 库 。 因 为 前 者 在 数据 插入 时 ， 不 会 针对 一 致 性 进行 检验 ， 而 
后 者 采用 共享 内 存 ， 要 为 一 致 性 提供 保证 ， 因 此 系统 开销 明显 大 于 Cassandra 
数据 库 。 图 7(b) 为 数据 量 为 5 百 万 ， 查 询 维度 为 7 时 ， 当 集群 节点 数 不 同时 ， 
两 种 数据 库 的 查询 性 能 对 比 结果 图 。 从 结果 可 以 看 出 ， 节 点 数 越 多 ， 集 群 的 性 
能 越 好 。 通 过 实验 可 以 看 出 ， 使 用 Cassandra 非 关 系 型 数据 接口 时 MBDMS 系统 
的 性 能 更 优 。 
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图 8 不 同 维度 检索 性 能 对 比 ， (a) 单 维度 检索 ，(b) 多 维度 检索 


Fig.8 The comparison of different dimensions, (a) single dimension, (b) multiple dimensions 

8(a) 和 图 8 (b) 分 别 为 对 数据 进行 单 维度 和 多 维度 维度 数 为 7) 查询 时 ， 
两 种 数据 库 的 性 能 对 比 情况 。 

由 实验 结果 可 以 看 出 ， 当 查询 维度 增加 时 ， 两 种 集群 的 系统 开销 均 会 增 大 ， 
但 是 MySQL 数据 库 所 需 时 间 增 加 的 速率 明显 高 于 Cassandra 数据 库 。 因 为 MySQL 
数据 库 共享 内 容 的 存储 方式 与 Cassandra 数据 库 索 引 树 分 节点 的 存储 方式 不 同 ， 
当 多 个 进程 同时 查询 数据 时 ， 对 索引 形成 的 压力 较 大 ， 使 系统 开销 急剧 增加 。 


-@- Cassandra-MBDMS -@- Cassandra-MBDMS 
7] -本 -Mysq-MBDMS —®- Mysql-MBDMS 


o 
o 
SQ 
o 


u 


Database file Size(GB) 
w 3 
Database file Size(MB) 
吉 
口 


N 
9 
S 
EE 


| 


品 
口 


1 5 10 1 5 10 
Number of records(million) Number of records(million) 


(a) (b) 
图 9 存储 占用 空间 对 比 ， (a) 数据 占用 空间 ，(b) 索引 占用 空间 


Fig.9 The comparison of storage space, (a) the space of data, (b) the space of index 


4.4 索引 占用 空间 对 比 

9 对 两 种 数据 库存 储 相 同 数据 时 所 占用 空间 以 及 索引 所 占用 的 空间 问题 
进行 了 分 析 。 对 于 一 个 高 效 的 海量 数据 存储 体系 而 言 ， 减 少 磁盘 的 开销 是 很 有 
必要 的 。 在 测试 中 分 析 了 磁盘 空间 占用 情况 ， 可 以 发 现 ， 对 于 MBDMS， 非 关系 
型 数据 库 比 关系 型 数据 库 所 占用 空间 小 很 多 ， 在 数据 量 相 同 的 情况 下 ， 非 关系 
型 数据 库 对 于 海量 数据 存储 更 有 优势 。 

通过 上 述 几 组 实验 可 以 看 出 ， 当 数据 集 比 较 小 时 ， 例 如 在 五 百 万 以 下 的 时 
候 ，MySQL 数据 库 的 性 能 基本 可 以 满足 存储 和 检索 需求 。 时 间 在 7. 5s 左右 。 当 
数据 集 比 较 庞大 ， 超 过 一 干 万 的 时 候 ， 可 以 看 到 ，MySQL 数据 库 的 查询 时 间 已 
经 超过 了 17s， 显 然 ， 该 数据 库 查 询 的 性 能 已 经 不 适合 再 进行 后 续 的 数据 处 理 。 
在 上 述 单 维度 查询 、 多 维度 查询 和 插入 的 实验 中 可 以 看 到 ，MBDMS 系统 调用 
Cassandra 数据 库 接口 时 ， 系 统 性 能 有 明显 的 优势 。 


5 结束 语 


本 文通 过 Cassandra 实现 了 明 安 图 射电 频谱 日 像 仪 帧 头 数据 和 帧 数据 高 速 
的 同步 存储 ， 解 决 了 关系 型 数据 库 环 境 下 二 者 分 离 存 储 带 来 的 一 致 性 问题 ， 且 
能 够 通过 Cassandra 的 扩展 性 提供 海量 天 文 数据 的 适应 性 。 同 时 ，MBDMS 能 够 很 
好 地 与 Cassandra 数据 库 结 合 ， 满 足 常 用 的 天 文 数据 管理 需要 ， 在 后 续 工作 中 ， 
将 一 进步 完善 并 优化 MDBMS 的 存储 和 检索 性 能 ， 提 供 其 他 常用 主流 NoSQL 数据 
库 数 据 访问 接口 。 
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Abstract: Mingantu Ultrawide Spectral Radioheliograph produces 
massive observational data every day. In order to solve the problem 
of high latency of reading and writing, limited performance of 
capacity expansion and weak usability when the data is stored and 
managed by traditional relational database, The paper has carried out 
research on the application of MUSER data storage based on NoSQL. 
First of all, deeply analyze the characteristics of MUSER data, the 
requirement of storage and problems being solved in detail. Secondly, 
the MUSER data model is given as well as the MUSER column non- 
relational data model. The metadata and data are synchronized in 
NoSQL based on Cassandra. The MUSER massive astronomical data storage 
management system (MBDMS) is realized based on Cassandra. The 
experiment validates the efficiency, expansibility and feasibility of 
data storage and retrieval of the system. As a result, MBDMS can well 
meet MUSER data management needs, is an effective program to solve 
the current MUSER data storage prob lenm. 
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